声明

本文是学习GB-T 34798-2017 核酸数据库序列格式规范. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们

1 范围

本标准规定了核酸数据库的序列格式,包括生物体基因组核酸序列特征规范制定的总则、序列描述

格式规范、序列特征描述规范和序列格式规范等。

本标准适用于生物体基因组核酸数据库序列文件的编写。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T 29859 生物信息学术语

ZC 0003 核苷酸和/或氨基酸序列表和序列表电子文件标准

3 术语和定义

GB/T 29859 界定的以及下列术语和定义适用于本文件。

3.1

核酸数据库 nucleic acid database

以核酸序列为基本内容,并附有核酸序列注释信息的数据库。

3.2

编码序列 coding sequence

编码一段蛋白产物的序列,始于起始密码子,终于终止密码子。

3.3

序列组装 sequence assembly

基因组长序列打断之后形成较短的序列,通过算法和计算机的帮助,把这些短的序列组装起来成为

一条完整有序的序列的过程。

3.4

甲基化 methylation

蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭。

3.5

识别码 identifier

某个体系中相对唯一的编码。

3.6

位置 location

一个或一段碱基在另一段较长碱基上的相对坐标位置。

3.7

特征限定词 feature qualifier

用来进一步描述序列的某一类特征的词。

GB/T 34798—2017

3.8

修饰碱基 modified base

核酸中主要碱基(腺嘌呤、鸟嘌呤、尿嘧啶、胞嘧啶等)的修饰化合物,核酸转录之后经甲基化、乙酰

化、氢化、氟化以及硫化而成,多半是主要碱基的甲基衍生物。

4 缩略语

下列缩略语适用于本文件。

CDS: 编码序列(coding sequence)

DDBJ: 日本核酸数据库(DNA data bank of Japan)

EMBL: 欧洲分子生物学实验室(european molecular biology laboratory)

HIV: 人类免疫缺陷病毒(human immunodeficiency virus)

ID: 识别码(identifier)

Medline:医学文献资料库(medlars on line)

NCBI: 美国国立生物技术信息中心(national center for biotechnology
information)

RNA: 核糖核酸(ribonucleic acid)

UTR: 非翻译区(untranslated regions)

5 核酸序列格式规范制定的总则

5.1 核酸序列文件应能够与 NCBI、EMBL、DDBJ 等数据库进行共享。

5.2 核酸序列特征描述具有准确性、清晰性、简洁性和明确性,参见GB/T
29859。

5.3 核酸序列特征内容具有实用性。

6 核酸序列描述规范

6.1 序列名称

序列名称应符合以下要求:

a)
序列名称应为简短的序列描述,包含序列的物种名、基因或蛋白名称及序列功能的简单描述;

b) 序列的物种名称命名参考林奈的《自然系统》]一书中的生物学命名方式;

c) 除人类免疫缺陷病毒可用 HIV1 和 HIV2
表示,其他种属应给出属和种的全名,不宜使用通用 名如(human)
或属名缩写(如代表 Homo sapiens 的 H.sapiens)。

6.2 序列编号

序列编号应保证一个序列号码对应一个核酸序列,具有唯一性。序列编号由两个字母加下划线加

6个数字组成,DNA 序列编号两个字母为 NT (如 NT 123456),RNA 序列字母为 NM
( 如 NM

123456),蛋白序列字母为 NP ( 如 NP 123456),
整个染色体、质粒等的基因组序列为 NC (如 NC
123456)。提交一个新的序列会系统产生一个新的序列编号,为保证序列的唯一性,当提交的序列在数

据库中已经存在,序列将不能被提交。

6.3 序列版本号

序列的版本号是由序列编号加一个点号加版本号(如序列编号.版本号,NM
123456.1), 当一个序

列改变,相应的版本号加1。

GB/T 34798—2017

6.4 序列长度

序列的长度宜大于50 bp,无最大值限制。

6.5 日期

日期应为序列最后被公开的日期,此信息只供用户参考,不具有法律保证,不能作为仲裁的判据,不

能用来作为优先权声明或专利权请求的依据。日期的格式为dd-mm-yyyy
格式(如15-06-1991)。

6.6 碱基总数

碱基总数应为出现在序列中碱基数目的总和,包括 A、C、T、G、U
等碱基数之和,具体核苷酸含义

表参见表 A.1。

6.7 分子类型

序列应注明分子类型,分子类型包括DNA 和 RNA 两种类型。

6.8 测序类型

序列应注明测序的仪器类型。

6.9 组装软件及版本号

序列应注明序列组装所使用的软件。格式为软件名称加版本号,若只有一个版本,版本号可缺省。

延伸阅读

更多内容 可以 GB-T 34798-2017 核酸数据库序列格式规范. 进一步学习

联系我们

GB-T 5750.1-2023 生活饮用水标准检验方法 第1部分:总则.pdf